Structure-based drug design (SBDD) aims to discover drug candidates by finding molecules (ligands) that bind tightly to a disease-related protein (targets), which is the primary approach to computer-aided drug discovery. Recently, applying deep generative models for three-dimensional (3D) molecular design conditioned on protein pockets to solve SBDD has attracted much attention, but their formulation as probabilistic modeling often leads to unsatisfactory optimization performance. On the other hand, traditional combinatorial optimization methods such as genetic algorithms (GA) have demonstrated state-of-the-art performance in various molecular optimization tasks. However, they do not utilize protein target structure to inform design steps but rely on a random-walk-like exploration, which leads to unstable performance and no knowledge transfer between different tasks despite the similar binding physics. To achieve a more stable and efficient SBDD, we propose Reinforced Genetic Algorithm (RGA) that uses neural models to prioritize the profitable design steps and suppress random-walk behavior. The neural models take the 3D structure of the targets and ligands as inputs and are pre-trained using native complex structures to utilize the knowledge of the shared binding physics from different targets and then fine-tuned during optimization. We conduct thorough empirical studies on optimizing binding affinity to various disease targets and show that RGA outperforms the baselines in terms of docking scores and is more robust to random initializations. The ablation study also indicates that the training on different targets helps improve performance by leveraging the shared underlying physics of the binding processes. The code is available at https://github.com/futianfan/reinforced-genetic-algorithm.
translated by 谷歌翻译
临床试验是药物开发的重要一步,通常是昂贵且耗时的。在计算机试验中,是通过模拟和建模作为替代传统临床试验的临床试验进行数字进行的。在计算机试验中支持AI可以通过创建虚拟队列作为控件来增加案例组的规模。此外,它还可以实现试验设计的自动化和优化,并预测试验成功率。本文在三个主要主题下系统地回顾了论文:临床模拟,个性化预测建模和计算机辅助试验设计。我们专注于如何在这些应用中应用机器学习(ML)。特别是,我们介绍了机器学习问题的公式和每个任务的可用数据源。最后,我们讨论了现实世界中的Silico试验中AI的挑战和机遇。
translated by 谷歌翻译
COVID-19的大流行造成了毁灭性的经济和社会破坏,使全球医疗机构的资源紧张。这导致全国范围内呼吁模型预测Covid-19患者的住院和严重疾病,以告知有限医疗资源的分配。我们回应针对儿科人群的其中一种。为了应对这一挑战,我们使用电子健康记录研究了针对儿科人群的两项预测任务:1)预测哪些儿童更有可能住院,而2)在住院儿童中,哪些孩子更有可能出现严重的症状。我们通过新颖的机器学习模型MEDML应对国家儿科Covid-19数据挑战。 MEDML根据超过600万个医学概念的医学知识和倾向得分提取了最预测的特征,并通过图神经网络(GNN)结合了异质医学特征之间的功能间关系。我们使用来自国家队列协作(N3C)数据集的数据评估了143,605名患者的MEDML,并在143,605名患者的住院预测任务中评估了严重性预测任务的11,465名患者。我们还报告了详细的小组级和个人级特征的重要性分析,以评估模型的解释性。与最佳的基线机器学习模型相比,MEDML的AUROC得分高达7%,AUPRC得分高达14%,并且自大流行以来的所有九个国家地理区域以及所有三个月的跨度都表现良好。我们的跨学科研究团队开发了一种将临床领域知识纳入新型机器学习模型的框架的方法,该框架比当前最新的数据驱动的功能选择方法更具预测性和可解释。
translated by 谷歌翻译
临床试验对于药物开发至关重要,但非常昂贵且耗时。在设计临床试验时,研究类似的历史试验是有益的。但是,冗长的试用文件和缺乏标记的数据使试验相似性搜索变得困难。我们提出了一种零拍的临床试验检索方法试验2VEC,该方法通过自学知识学习而无需注释类似的临床试验。具体而言,试验文件的元结构(例如,标题,资格标准,目标疾病)以及临床知识(例如,UMLS知识库https://www.nlm.nih.gov/research/umls/inmls/index.html)被杠杆化以自动生成对比样品。此外,Trial2VEC编码考虑元结构的试验文件,从而产生紧凑的嵌入,从而从整个文档中汇总了多相关信息。我们表明,我们的方法通过可视化产生了可解释的医学解释的嵌入,并且在试验检索的精确/召回率上的最佳基线比最佳基线得到15%的改善,这是在我们标记的1600个试验对中评估的。此外,我们证明预先训练的嵌入在240K试验中受益于下游试验结果预测任务。
translated by 谷歌翻译
表格数据(或表格)是机器学习(ML)中最广泛使用的数据格式。但是,ML模型通常假设表结构在训练和测试中保持固定。在ML建模之前,需要进行大量数据清洁以将不同的表与不同的列合并。这种预处理通常会造成大量的数据浪费(例如,删除无与伦比的列和样品)。如何从具有部分重叠列的多个表中学习ML模型?随着更多的列随着时间的推移可用,如何逐步更新ML模型?我们可以利用在多个不同表上预处理的模型吗?如何训练可以在看不见的桌子上预测的ML模型?为了回答所有这些问题,我们建议通过为表引入可转移的表变压器(Transtab)来放松固定桌结构。 transtab的目的是将每个样品(表中的一行)转换为可概括的嵌入向量,然后将堆叠的变压器应用于特征编码。一种方法论的洞察力是将列描述和表单元组合为门控变压器模型的原始输入。另一个见解是引入受监督和自我监督的预告片以提高模型性能。我们将transtab与多种基线方法进行比较,以进行多种基线方法和五个肿瘤学临床试验数据集进行比较。总体而言,transtab分别排名1.00、1.00、1.78,分别是有监督学习,功能增量学习和转移学习方案的12种方法;拟议的预告片会导致在监督学习中平均达到2.3%的AUC提升。
translated by 谷歌翻译
影响重症患者护理的许多基本问题会带来类似的分析挑战:医生无法轻易估计处于危险的医疗状况或治疗的影响,因为医疗状况和药物的因果影响是纠缠的。他们也无法轻易进行研究:没有足够的高质量数据来进行高维观察性因果推断,并且通常无法在道德上进行RCT。但是,机械知识可获得,包括如何吸收人体药物,并且这些知识与有限数据的结合可能就足够了 - 如果我们知道如何结合它们。在这项工作中,我们提出了一个框架,用于在这些复杂条件下对重症患者的因果影响估算:随着时间的流逝,药物与观察之间的相互作用,不大的患者数据集以及可以代替缺乏数据的机械知识。我们将此框架应用于影响重症患者的极其重要的问题,即癫痫发作和大脑中其他潜在有害的电气事件的影响(称为癫痫样活动 - EA)对结局。鉴于涉及的高赌注和数据中的高噪声,可解释性对于解决此类复杂问题的故障排除至关重要。我们匹配的小组的解释性使神经科医生可以执行图表审查,以验证我们的因果分析的质量。例如,我们的工作表明,患者经历了高水平的癫痫发作般的活动(75%的EA负担),并且未经治疗的六个小时的窗口未受治疗,平均而言,这种不良后果的机会增加了16.7%。作为严重的大脑损伤,终生残疾或死亡。我们发现患有轻度但长期EA的患者(平均EA负担> = 50%)患有不良结果的风险增加了11.2%。
translated by 谷歌翻译
Deep neural network (DNN) classifiers are often overconfident, producing miscalibrated class probabilities. Most existing calibration methods either lack theoretical guarantees for producing calibrated outputs or reduce the classification accuracy in the process. This paper proposes a new Kernel-based calibration method called KCal. Unlike other calibration procedures, KCal does not operate directly on the logits or softmax outputs of the DNN. Instead, it uses the penultimate-layer latent embedding to train a metric space in a supervised manner. In effect, KCal amounts to a supervised dimensionality reduction of the neural network embedding, and generates a prediction using kernel density estimation on a holdout calibration set. We first analyze KCal theoretically, showing that it enjoys a provable asymptotic calibration guarantee. Then, through extensive experiments, we confirm that KCal consistently outperforms existing calibration methods in terms of both the classification accuracy and the (confidence and class-wise) calibration error.
translated by 谷歌翻译
目的:在本文中,我们旨在从大量未标记的脑电图(EEG)信号中学习强大的向量表示,以使学习的表示(1)表现得足以替代睡眠分期任务中的原始信号; (2)在较少的标签和嘈杂样本的情况下,提供了比监督模型更好的预测性能。材料和方法:我们提出了一个自我监督的模型,称为与世界表示形式(Contrawr)相比,用于EEG信号表示学习,该模型使用数据集中的全局统计信息来区分与不同睡眠阶段相关的信号。在包括在家中的三个现实世界EEG数据集上评估了Contrawr模型,这些模型既包括在家中录制设置。结果:Contrawr在三个数据集中的睡眠登台任务上,Moco,Simclr,Byol,Simsiam胜过最新的自我监督学习方法。当可用的培训标签较少时,Contrawr还会击败受监督的学习(例如,标记不到2%的数据时,精度提高了4%)。此外,该模型在2D投影中提供了信息表示。讨论:建议的模型可以推广到其他无监督的生理信号学习任务。未来的方向包括探索特定于任务的数据增强,并将自我监督与监督方法结合起来,这是基于本文自我监督学习的最初成功。结论:我们表明,Contrawr对噪声是强大的,并且可以为下游预测任务提供高质量的EEG表示。在低标签场景(例如,只有2%的数据具有标签),Contrawr的预测能力(例如,睡眠分期准确性提高了4%)比监督的基线要好得多。
translated by 谷歌翻译
在医学中,生存分析研究了感兴趣的事件的持续时间,例如死亡率。一个主要挑战是如何处理多个竞争事件(例如,多种疾病诊断)。在这项工作中,我们提出了一个基于变压器的模型,该模型不会为基础生存分布做出假设,并且能够处理竞争事件,即生存。我们在多事件场景中的观测环境中解释了隐式\ emph {混杂因素},这会导致选择偏见,因为预测的生存概率受到无关因素的影响。为了充分利用生存数据从头开始训练变压器,为多任务学习设计了多个辅助任务。因此,该模型从所有这些任务中学习了强有力的共享表示形式,进而为更好的生存分析提供服务。我们进一步演示了如何通过可解释的Survtrace的可解释的注意力机制来检查协变量和重要性,这足以增强临床试验设计和新的治疗开发。与470K患者的代理,支持和SEER数据进行的实验验证了我们方法的全方位优势。
translated by 谷歌翻译
张量分解是降低维数和特征多维数据(例如信号)的功能解释的强大工具。现有的张量分解目标(例如Frobenius Norm)旨在根据统计假设拟合原始数据,这可能与下游分类任务不符。在实践中,原始输入张量可以包含无关的信息,而数据增强技术可用于平滑样品中的类近差噪声。本文通过提出增强张量分解(ATD)来解决上述挑战,该张力分解(ATD)有效地纳入了数据增强和自欺欺人的学习(SSL)以增强下游分类。为了解决新的增强目标的非凸度,我们开发了一种迭代方法,使优化能够遵循交替的最小二乘(ALS)时尚。我们在多个数据集上评估了我们的ATD。与基于张量的基准相比,它可以实现0.8%-2.5%的准确性增益。此外,我们的ATD模型在自我监督和自动编码器基准的情况下显示出可比或更好的性能(例如,准确性高达15%),同时使用这些基线模型的少于5%的可学习参数
translated by 谷歌翻译